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基于 通道 权重 的 顺序 精炼 RGB-D 显著 检测 网 络 


卞 华军 ， 王 华军 ， 赵 赫 威 
(成 都 理工 大 学 网 络 安全 学 院 ， 成 都 610059) 


摘 要 : 提出 了 一 种 新 型 的 用 于 RGB-D 显著 目标 检测 的 网 络 框架 (SR-Net)。 为 了 有 效 整 合 多 模 态 特征 的 互补 性 ,将 
深度 特征 提取 作为 独立 分 支 , 采用 卷 积 块 注意 模块 (CBAM,，convolutionalblock attention module) 进 行 深度 特征 增强 ， 
并 整合 增强 后 的 深度 特征 与 RGB 特征 的 互补 信息 。 为 了 去 除 特 征 宛 余 ， 减 少 背 景 嗓 声 对 预测 结果 的 干扰 ， 在 上 采 
样 网 络 中 设计 了 一 种 顺序 精炼 网 络 ， 即 通过 整合 多 层次 、 多 尺度 特征 的 互补 性 ， 获 取 初 级 全 局 特征 ， 并 采用 基于 通 
道 权 重 的 初级 全 局 特征 权重 矩阵 获取 模块 (PFW，primary global feature weight matrix acquisition module) 获 取 初 级 全 局 
特征 的 权重 矩阵 ; 其 次 利用 获取 到 的 权重 短 阵 对 各 层次 特征 进行 精炼 ， 以 抑制 背景 噪声 带 来 的 干扰 ; 最 后 ， 为 了 更 
好 的 优化 整个 网 络 ， 提 出 了 一 种 新 的 损失 函数 。 在 四 个 公共 数据 集 上 的 实验 结果 表明 ， 该 模型 在 不 同 的 模型 评价 指 
标 上 均 优 于 近年 来 9 种 先进 方法 ， 获 得 了 优异 的 性 能 。 

关键 词 : 显著 性 目标 检测 ; RGB-D; 通道 权重 ; 顺序 精炼 
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Sequential refined RGB-D saliency detection network based on channel weight 


Bian Huajun, Wang Huajun, Zhao Hewei 
(School of network security, Chengdu University of Technology, Chengdu 610059, China) 


Abstract: This paper proposed anew network framework for RGB-D salient object detection (SR-Neb . In order to effectively 
integrate the complementarity of multi-model features, this paper took the depth feature extraction as an independent branch， 
use the Convolutional Block Attention Module(CBAM) to enhance the depth feature, and integrate the complementary 
information of the enhanced depth feature and RGB feature. Then, in order to remove feature redundancy and reduce the 
interference of background noise on the prediction results, it proposed a sequential refining network in the up-sampling 
network, that is, first, the primary global features are obtained by integrating the complementarity of multi-level and multi- 
scale features, and used the Primary Global Feature Weight Matrix Acquisition Module (PFW) which based on the channel 
weight to obtains the weight matrix of the primary global feature, and then uses the obtained weight matrix to refine the 
features of each level to suppress the interference which caused by background noise. Finally, in order to better optimize the 
whole network, it proposed a new loss function. The experimental results on four public datasets show that the model is 
superior to nine advanced methods in different model evaluation indexes, and achieves more advanced performance. 


Key words: salient object detection; RGB-D; channel weight; sequential refine 


粗 显著 图 ， 它 定位 了 显著 目标 ， 但 失去 了 轮廓 细节 ， 其 在 
DRCNNNet 中 采用 DRCNN 用 于 从 深 到 浅 泻 染 显著 目标 。 低 
基于 RGB-D 的 显著 目标 检测 (RGB-D SOD) 旨 在 从 一 对 层 侧 输出 借助 于 深层 侧 输出 、 原 始 深 度 线索 和 粗 显著 图 ， 可 
RGB 图 像 及 深度 图 像 中 检测 到 最 具 吸 引力 的 部 分 。 在 过 去 的 以 从 多 个 尺度 生成 显著 对 象 ， 从 而 保留 更 多 地 轮廓 细节 ;Wu 
十 几 年 里 ， 显 著 目 标 检 测 (SOD) 因 可 以 广泛 应 用 于 图 像 分 割 等 后 在 MCMF-Net 中 提出 了 一 种 利用 深度 数据 从 相应 的 几 
中 ,图 像 编 辑 外 以 及 视频 分 析 Bl 等 领域 的 预 处 理 阶段 , 而 备 受 何 信 息 中 检测 显著 目标 边界 的 方法 ， 而 不 是 简单 地 从 深度 数 
关注 。 传 统 的 显著 目标 检测 方法 主要 依赖 于 手工 制作 的 低级 据 中 提取 显著 目标 特征 。 但 是 ， 随 着 研究 工作 的 不 断 进 行 ， 
特征 扩 526.27 来 进行 显著 目标 检测 , 但 因 缺 少 对 显著 目标 语义 现 仍然 存在 两 种 难点 吸 待 解决 ， 一 方面 是 如 何 有 效 整合 多 模 
这 息 的 获取 而 很 难 在 背景 比较 复杂 等 情况 中 取得 良好 的 实验 态 、 多 尺度 及 多 层次 特征 的 互补 性 ， 另 一 方面 

效果 。 近 年 来 ， 随 着 深度 学 习 的 快速 发 展 ， 众 多 研究 工作 者 复杂 背景 噪声 带 来 的 干扰 ,并 去 除 特征 中 所 包含 的 元 余 信息 。 
开始 将 卷 积 神经 网 络 (CNN, convolutional neural networks) 应 寻 此 ， 为 了 解决 以 上 两 种 问题 ， 本 文 提 出 了 一 种 基于 通道 权 
用 于 RGB-D SOD 中 ， 并 取得 良好 的 实验 效果 。Li 等 2 首次 重 的 顺序 精炼 RGB-D 显著 目标 检测 网 络 (SR-Net)。 具 体 的 ， 
采用 深度 神经 网 络 搭 建 了 一 个 基于 多 尺度 特征 的 显著 性 模型 ， 在 SR-Net 中 ， 本 文采 用 基于 注意 力 机 制 的 CBAM 
Wu 等 外] 提出 级 联 部 分 解码 器 模型 (cascaded partial decoder, (convolutional block attention module) 模 块 增强 深度 特征 并 有 
CPD), 将 主干 网 络 中 较 深 的 特征 进行 整合 ,得 到 初始 显著 性 效 整 合 多 模 态 特征 的 互补 性 ， 并 设计 一 种 顺序 精炼 网 络 ， 首 
图 ， 进而 通过 整体 注意 力 模 块 细 化 特征 ， 获 得 最 终 的 显著 性 先 通过 多 层次 、 多 尺度 特征 融合 以 获取 初级 全 局 特征 (如 图 2 
图 ; Liu 等 的 认为 主干 网 络 从 浅 到 深 提 取 多 层次 特征 ， 生 成 所 示 ), 并 采用 基于 通道 权重 的 初级 全 局 特征 权重 矩阵 获取 模 
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于 后 续 精炼 各 层次 特征 。 如 图 2 所 示 ， 提 出 的 模型 的 显著 目 
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地 征 进行 精炼 ， 以 强 
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于 像 所 示 )， 且 结构 完整 
上 所 述 ， 本 文 的 贡献 主要 


如 下 : 
D 采 


增强 ,与 以 人 
采用 单独 Resnet-50 前 

2) 设计 了 一 种 顺 
尺度 特征 ， 获 取 初 级 4 
重 和 矩阵 去 精炼 各 
3) 设计 了 一 种 初级 全 


关 CBAM 模块 进行 深度 特征 
FE 作为 RGB 特 和 
F 网 络 分 支 进行 深度 特征 提取 ; 

等 先 通过 整合 多 层次 、 多 


的 补充 不 同 ， 


用 初级 全 局 特征 的 权 
E， 以 去 除 见 余 信息 ; 
E 权 重 和 矩阵 获取 模块 (PFW)， 


去 除 ， 获 取 相 应 权 习 

4) 为 了 更 好 的 优 
的 损失 函数 ， 经 实验 订 
提出 的 SR-Net 在 四 
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Fig.2 Overall model architecture 
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的 损失 函数 的 优化 下 ， 本 文 
据 集 上 均 获 得 优秀 的 实验 效果 。 
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采样 网 络 中 。 在 初级 全 
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初级 全 局 特征 会 首先 经 过 基于 注意 力 权重 机 制 的 全 局 特征 精 的 互补 性 ， 进 而 获取 到 的 初级 全 局 特征 ， 会 包含 更 多 的 关于 
炼 模块 PFW), 去 除 初级 全 局 特征 的 元 余 信 息 , 并 生成 对 应 权 ”显著 目标 的 主要 信息 ， 当 使 用 其 进行 基于 注意 力 机 制 的 全 局 
重 矩 阵 ( 如 图 2 中 “ Weighis(W) "所 示 )， 其 次 ， 利 用 生成 的 权重 窒息 权重 获取 时 ， 权 重 的 置信 和 度 会 更 高 。 基 于 以 上 思想 ， 并 
对 各 层次 特征 进行 精炼 ， 最 后 ， 整 合 多 层次 、 多 尺度 精炼 后 姑 各 层次 特征 的 尺度 不 同 ， 首 先 将 各 层次 的 特征 经 过 上 采样 
的 特征 ， 获 取 最 终 的 显著 目标 预测 结果 。 为 了 更 好 的 优化 提 到 相同 的 尺寸 大 小 (88*88*32), 具体 的 上 采样 (up*n) 计 算 过 下 : 
出 的 基于 通道 权重 的 顺序 精炼 网 络 ， 本 文 在 网 络 中 的 不 同 层 Si = Relu( BN (convi (upsample* n(S;)))) (5) 
次 进行 上 采样 ， 以 获取 到 的 该 层次 的 显著 目标 预测 结果 图 ， 其 中 ， 5; 代 表 通 过 全 局 上 下 文 信息 获取 模块 (GCM) 去 除 见 余 


并 计算 子 损失 函数 ， 特 别 的 ， 根 据 该 层次 对 最 终 显 著 目 标 预 
测 结果 的 影响 程度 ， 给 予 该 层次 的 子 损失 函数 以 不 同 的 权重 


(如 图 2 中 0.1*7oss "所 示 )。 体 日 
文 所 述 。 
1.1 深度 特征 增强 模块 (CBAM) 


的 关于 整个 网 络 的 介绍 如 下 


为 了 有 效 整 合 来 自 RGB 特 和 


往 的 工作 多 采用 简单 的 连接 方式 ， 


E 和 深度 特征 的 互补 性 ， 以 


信息 后 的 特征 , wpsample*n 代表 对 5; 进行 n 倍 的 上 采样 操作 ， 
co 代表 3*3 的 卷 积 ，BN 表示 正则 化 ，Relu 代表 Relu 激活 
函数 ，5 表示 经 过 上 采样 后 的 输出 特征 。 最 后 ， 上 采样 后 的 
各 层次 特征 会 进行 对 应 元 素 相 乘 ， 获 取 初 级 全 局 特征 ， 有 具体 
的 获取 初级 全 局 特征 的 计算 过 程 如 下 : 

Fn=5, ®5, 55 ®S,s (6) 


例如 ， 级 联 、 对 应 元 素 点 


乘 、 相 加 , 或 仅 将 深度 特征 作为 RGB 特征 的 补充 进行 多 模 态 


特征 融合 ， 并 未 深度 考虑 由 于 内 在 的 模 态 差异 及 深度 特征 的 
元 余 性 ， 直 接 采 用 简单 的 方式 整合 多 模 态 特征 融合 会 带 来 一 
些 元 余 信息 和 噪声 。 受 研究 者 工作 中 的 启发 ， 本 文采 用 通道 


注意 力 机 制 及 空间 全 局 注意 力 机 制 构建 深度 特征 增强 模块 ， 
进而 对 深度 特征 进行 特征 增强 。 如 图 3 所 示 ， 将 输入 的 特征 
图 fm 分别 经 过 max-pooling 及 avg-pooling, 获得 关于 特征 图 


其 中 ，5 表示 经 过 上 采样 后 的 输出 特征 ，@ 代表 对 应 元 素 点 
乘 , fw 代表 获取 到 的 初级 全 局 特征 。 
1.3 初级 全 局 特征 权重 矩阵 获取 模块 (PFW) 

如 图 4 所 示 ， 在 初级 全 局 特征 获取 分 支 中 ， 有 效 整 合 了 
多 层次 、 多 尺度 特征 的 互补 性 ， 获 得 初级 全 局 特征 ww 。 因 
全 局 特征 会 包含 更 多 的 关于 显著 目标 的 重要 特征 ， 因 此 ， 当 
用 全 局 特征 0 层次 的 特征 时 ， 可 以 去 除 该 层次 特 


的 各 通道 权重 ， 然 后 经 过 比率 变换 提取 全 局 通道 信息 并 对 应 
元 素 相 加 , 获得 基于 通道 注意 力 机 制 的 特征 图 Fo , 具体 计 牌 
过 程 如 下 : 
fi =convi vs(5(conv wa (maxpool( Fi )))) (1) 
万 =convuvaio yx(5(conv raio (avgpool( Rom )))) (2) 
Fea =sigmoid(conv, »([fi,£])) (3) 


~ 


到 j 的 1xl 卷 积 ,ratio 代表 比例 变 ] 


中 ，&m 代表 输入 特征 图 ，maxpool ，avgpool 分 别 代表 着 全 
局 最 大 池 化 和 全 局 平均 池 化 ， “om 代表 将 通道 数 由 i 转变 


了 唤 ,6 表示 Relu 激活 函数 ， 


天 及 厂 表 示 计 算 过 程 中 的 中 间 过 渡 变 量 ， Fc 表示 经 过 通道 


注意 力 机 制 精炼 后 得 到 的 特征 图 。 
随后 ， 将 Fa 分别 经 过 基于 空 


nT 


FPF 所 包含 的 元 余 信息 ， 并 自动 选择 和 增强 该 特征 中 所 包含 
要 特征 ， 降 低 背 景 噪声 干扰 。 基 于 以 上 思路 ， 提 出 了 初 
全 局 特征 权重 获取 模块 (PFW)， 具 体内 容 如 下 所 述 : 

首先 ， 经 过 初级 全 局 特征 获取 分 支 获 取 到 的 初级 全 局 特 
征 fm 会 根据 其 即将 进行 精炼 的 网 络 层次 进行 是 否 进 行 下 采 
样 判断 ， 值 得 注意 的 是 ， 考 虑 到 上 采样 的 过 程 相 较 于 下 采样 
会 引入 更 多 的 噪声 ， 在 统一 不 同 尺 寸 的 特征 时 ， 本 文选 择 将 
fom 进行 下 采样 ， 而 非 对 较 小 尺寸 的 特征 进行 上 采样 。 有 具体 
的 下 采样 判断 的 计算 公式 为 : 


演 否 请 Cy 
| 本 


(7) 


志 | (Rai)， ifsize s!= Size mn 
prdl 二 


丰 otherwise 
prdl 


间 的 maxpool 及 avgpool ， 获 


得 空间 层面 上 的 关于 显著 目标 的 权重 ， 然 后 采用 级 联 进行 连 


接 ， 并 通过 7x7 卷 积 将 通道 数 转换 为 1， 获 得 基于 空间 注意 
力 机 制 的 特征 图 及 ,有 具体 的 计算 过 程 如 下 : 


Fw =Sigmoid(conv， , [maxpoo 


其 中 ， Fo 表示 经 过 通道 注意 力 机 制 精炼 后 得 到 的 特征 图 


其 中 ，szes ，sizer, 分 别 代表 各 层次 特征 和 初级 全 局 特征 的 尺 
寸 ，Finterpolate 代表 基于 双 线 性 插值 的 下 采样 操作 ，F 代表 
经 过 下 采样 判断 过 程 后 的 输出 结果 。 然 后 ， 经 过 下 采样 后 的 


1( Fea ),avgpool( Fos )]) (4) 


输出 结果 fm 均 会 经 过 空间 层次 的 全 局 平均 池 化 ， 特 别 的 ， 
在 这 一 部 分 ， 本 文 对 fw 进行 了 空间 全 局 平均 池 化 ， 而 非 空 
间 全 局 最 大 池 化 ， 主 要 原因 在 于 ， 本 文 认为 最 大 池 化 会 华 有 


maxpool 及 avgpool 分 别 表示 基于 空间 的 全 局 最 大 池 化 和 全 局 


2 


平均 池 化 ， Fs 表示 经 过 全 局 注意 


力 精炼 后 得 到 的 特征 图 。 


图 3 CBAM 特征 


2 


增强 模块 


Fig.3 CBAM feature enhancement module 


1.2 初级 特征 获取 


如 图 1 所 示 ， 经 过 深度 增强 后 的 特征 会 和 骨干 网 络 提 取 
到 的 RGB 特征 进行 对 应 元 素 相 加 ， 以 整合 上 下 文 信息 并 输 
送 到 全 局 上 下 文 信息 获取 模块 (GCM), 进行 上 下 文 信息 综合 ， 
获得 特征 5;。 随 后 ， 因 多 层次 、 多 尺度 的 特征 所 包含 的 关于 
显著 目标 的 信 息 具 有 互补 性 ， 有 效 整 合 多 层次 、 多 尺度 特征 


特殊 性 及 不 稳定 性 ， 单 个 通道 的 权重 会 对 最 终 整体 权重 分 布 
造成 极 大 的 影响 ， 因 此 采用 空间 全 局 平均 池 化 ， 可 以 更 加 确 
保 整 个 网 络 的 鲁 棒 性 和 准确 性 。 
最 后 ， 经 过 全 局 平局 池 化 的 特征 会 先后 经 过 3x3 的 卷 积 
和 sigmoid 激活 函数 ， 生 成 最 终 的 关于 初级 全 局 特征 的 权重 
和 矩阵 ,用 于 后 续 指 导 精 炼 各 层次 特征 ,具体 的 计算 过 程 如 下 : 
Weights (W)= sigmoid (conv, (savgppol( Fa ))) (8) 
E 中 Ps 代表 经 过 下 采样 判断 过 程 后 的 输出 结果 ，sovspool 代 
表 基 于 空间 的 全 局 平均 池 化 ，sigmoid 代表 sigmoid 激活 函数 ， 
weighis(W) 代表 关于 初级 全 局 特征 的 空间 权重 矩阵 。 


有 Avgpool Conv3x3 


f i 


Judge 8 六 
Input | —* Weights (WwW) 
Avgpool Conv3x3 PFW 4 


Unchanged 


图 4 初级 全 局 特征 权重 矩阵 获取 模块 


Fig.4 Primary global feature weight matrix acquisition module 
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炼 网 络 


如 图 2 所 示 ， 因 初级 全 局 特征 会 包含 更 多 的 关于 显著 


标的 信息 ， 当 用 其 指导 精炼 各 层次 网 络 的 特征 ， 可 以 去 除 该 


层次 特征 中 所 包含 的 元 余 信息 ,并 自动 选择 和 增强 关键 信息 。 


忆 此 ， 将 获取 到 的 初级 全 局 特征 的 空间 权重 与 各 层次 特征 进 
行 点 乘 ， 以 获得 经 过 初级 全 局 特征 精炼 后 的 各 层次 特征 。 随 
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在 这 部 分 首先 对 本 文中 所 采用 的 4 种 公共 数据 集 、5 种 
评价 指标 及 相应 实验 细节 进行 大 致 介绍 ， 然 后 会 将 提出 的 方 


J 王 钴 
结合 多 层次 、 


后 ， 按 顺序 自 定 向 下 地 整合 各 层次 精炼 后 的 特征 ， 以 有 效 地 


多 尺度 特征 的 互补 性 ， 并 获得 最 终 的 显著 目标 


预测 结果 。 具 体 的 特征 精炼 过 程 如 下 : 


Si =W®S; (9) 


2.1 数据 集 


为 了 有 效 验证 SR-Net 模型 的 有 效 性 ， 在 4 个 公共 数据 
集 上 进行 了 综合 实验 。 即 SIP[SLNJUDI9NLPRIo0,LFSDIUD。 
其 中 ，SIPBl 包 含 了 通过 华为 Metal0 获取 到 的 929 张 高 分 辨 


的 空间 权重 ， 
日 


的 输出 结果 。 


的 信息 不 同 ， 


其 中 ， 3 代表 通过 全 局 上 下 文 信息 获取 模块 (GCM) 去 除 元 余 
信息 后 的 特征 ，@ 代表 对 应 元 素 点 乘 ，W 代表 初级 全 局 特征 


3 代表 经 过 初级 全 局 特征 指导 精炼 后 的 各 层次 


再 者 ， 因 经 过 初级 全 局 特征 精炼 后 的 各 层次 特征 所 包含 


为 了 整合 各 层次 、 备 尺度 特征 的 互补 性 ， 本 文 


法 与 近年 来 9 种 先进 的 模型 进行 比较 ， 最 后 ， 通 过 一 系列 的 
消融 实验 来 证 明 本 文中 所 提出 的 一 些 方法 和 模块 的 有 效 性 。 


率 人 物 图 像 , 且 数 据 集 多 集中 于 现实 世界 的 人 物 中 ，NJUDI 
数据 集 包 含 了 从 互联 网 及 3D 中 电影 收集 到 的 1985 张 图 像 ， 


NLPRIIO 包 含 了 1000 张 RGB-D 图 像 ， 具 有 像素 级 真 值 图 ， 


深度 图 像 是 通过 Kinect 在 不 同 照 明 


条 件 和 采集 场景 下 捕获 ， 


数据 集 的 图 像 中 可 能 存在 多 个 显著 对 象 , LFSDU0 包 含 了 100 
张 由 Lytro light field camera 相机 分 别 从 室内 外 采集 到 的 分 辨 


自 上 而 下 地 将 各 层次 特征 进行 对 应 元 素 点 乘 或 级 联 ， 为 了 更 
清晰 地 叙述 整个 整合 流程 , 在 这 里 将 输入 实例 化 为 5 及 5,;， 


体 的 计算 过 程 为 
Sss = BN (conv(S,s ® 5,s)) (10) 
其 中 ， 5 及 5,; 为 经 过 初级 全 局 特征 精炼 后 的 各 层次 特征 ， 


Sn 为 整合 J 


最 后 , 将 融合 了 多 层次 、 多 尺度 后 的 特征 ( fw2) 上 采样 到 
与 真 值 图 (GT, Ground Truth) 相 同 尺 寸 (352x352), 并 考虑 到 直 


上 述 两 层 特征 的 互补 性 后 获取 到 的 特征 。 


痰 进行 上 采样 会 损失 一 些 细节 ， 并 带 来 噪声 ， 为 了 解决 这 一 
问题 , 本 文采 用 了 一 种 简单 且 有 效 的 特征 尺寸 转换 模块 (FCS， 
feature size conversion module)。 具 体 的 ，FSC 首先 采用 1x1 
的 卷 积 将 特 生 采 


通道 数 进行 改变 ， 然 后 ， 采 用 残 差 网 络 对 输入 


率 为 360x360 的 图 像 。 
2.2 评价 指标 


为 了 从 定量 的 角度 去 评判 本 文 提出 的 整个 模型 的 好 坏 ， 
在 实验 中 引入 了 精准 -召回 率 曲 线 (PR 曲线 ) 及 5 种 评价 指标 ， 
分 别 为 s。，Fas， 夏 ，5,，MAE 。PR 曲线 可 以 通过 由 一 系列 
精确 召回 对 生成 , 所 获 的 曲线 越 接 近 于 (1, 1), 越 代表 模型 的 


预测 结果 精度 越 高 ， 有 具体 的 精准 率 (PD) 和 召回 率 (R) 的 计算 公 


式 为 


PenGcl pS nd 


1S1 | 


| (15) 


其 中 ，G 表示 真 值 图 ，S 是 根据 闵 值 的 预测 结果 图 5 的 二 值 


数 ， 记 表示 


其 中 ，Fwm 为 上 采样 网 络 的 最 终 输出 ，Relu 代表 Relu 激活 函 


P 间 过 渡 变 量 ，corw, 及 corv; 代表 残 差 网 络 中 采 


不 同 尺 寸 的 卷 积 层 对 特征 图 进行 上 采样 的 操作 ， Resut 为 整 


个 模型 的 最 终 预测 结果 。 


1.5 损失 函 


数 


为 了 更 好 地 训练 整个 网 络 ， 在 本 文中 提出 了 一 种 新 的 损 
失 函 数 ， 实 验 表 明 ， 在 新 的 损失 函数 的 优化 下 ， 整 个 模型 可 


比 掩 码 。 因 精准 率 和 召回 率 有 时 可 能 会 相互 了 矛盾， 因此 需要 


特征 图 进行 上 采样 ， 提 高 信息 流通 ， 并 防止 因 网 络 深度 造成 ” 综合 考虑, 最 常用 的 方法 是 。， 即 是 精准 率 和 召回 率 的 
的 梯度 消失 和 退化 问题 ， 具 体 的 计算 过 程 如 下 : 加 权 调 和 平均 值 ， 定 义 为 
f=Relu(BN(conve (Fs))) (11) -I (+B)PxR (16) 
Result = Relu(BN(conv(f))+BN(convs(f;))) (12) ™ PxP+R 


um 


其 中 ,，P、R 分 别 代表 精准 率 和 召回 率 ，r 代表 权重 遵从 0 
的 建议 ， 本 文 将 屏 设 置 为 0.3 以 强调 精度 。 MAE 表示 模型 
预测 结果 与 真 值 图 的 平均 像素 级 误差 ， 当 数值 越 小 时 ， 表 示 


模型 的 预测 精度 越 高 。 具 体 计算 公式 为 


HxW 祁 


以 收敛 到 最 人 


边缘 更 加 清晰 ， 损 失 函 数 的 具体 构成 如 下 所 述 。 


氏 点 ， 最 终 的 显著 目标 预测 结果 结构 更 加 完整 ， 


如 图 2 所 示 , 将 初级 全 局 特征 、 特 征 精 炼 分 支 的 输出 


及 最 终 的 显 


的 大 小 ， 有 具体 的 上 采样 过 程 已 在 1.2 节 式 (5) 进 行 了 详 


介绍 ， 然 后 


算 , 损失 函数 搭建 在 二 元 交叉 炉 损失 函数 上 , 二 元 交叉 炉 
损失 函数 的 计算 公式 为 


著 目 标 预 测 结果 上 采样 到 与 真 值 图 相同 尺寸 


对 经 过 上 采样 后 的 特征 分 别 进行 损失 函数 计 


(=GlogS +(1—-G)log(—S) (13) 


其 中 ， G 代表 真 值 图 ，s 代表 预测 结果 图 ， 当 计算 结果 越 小 
时 ， 代 表 最 终 的 预测 结果 越 贴近 真 值 图 。 为 了 更 好 地 让 损失 
函数 贴近 整个 模型 的 实际 运行 状态 ， 给 予 不 同 层次 融合 节点 
的 损失 函数 以 不 同 的 权重 ， 以 强调 随 着 融合 进程 ， 各 网 络 层 


刁 
次 的 预测 结果 对 最 终 的 显著 目标 预测 结果 影响 程度 ， 具 体 的 
损失 函数 公式 如 下 所 示 。 


ioss =0.1bios 十 0.3Cosa 十 0.3Cosa (14) 


其 中 ， lis(i=42,3) 分 别 代 表 上 采样 网 络 的 不 同 融 合 节点 所 计 


算得 到 的 损失 函数 ， lis 为 对 整个 模型 最 后 预测 输出 所 计算 
得 到 的 损失 函数 ，(li 为 总 体 损失 函数 。 


并 


代表 预测 结果 图 的 高 度 和 宽度 。 
2.3 ”实验 细节 


1 HW 
MA4E= yw 2 SY) -G00 y)| (17) 


其 中 ，S 代表 模型 的 预测 结果 ，G 代表 真 值 图 ， H 及 W 分 别 


遵从 02.03 的 意见 ， 从 NJUD 及 NLPR 数据 集中 分 别 选 


择 1485 及 700 张 图 片 作为 训练 集 ， 


LFSD 数据 集 共 同 作 为 测试 集 进 行 模型 测试 。 本 文 使 用 
Resnet-50 作为 骨干 网 络 , 并 使 用 Adam 算法 进行 整个 网 络 的 


其 剩余 图 片 将 与 SIP 及 


优化 ， 将 整个 网 络 在 一 块 batchsize 设置 为 8 的 NVIDIA 


GeForce RTX 2080Ti GPU 上 进行 训练 ， 网 络 初始 学 习 率 设置 
为 le-4， 并 使 其 每 隔 60epoch 降低 至 原来 的 0.1 倍 ， 整 个 网 


络 在 200epoch 停止 训练 ， 并 保存 最 好 的 模型 进行 测试 ， 整 个 


模型 的 实验 搭建 在 Pytorch 平台 上 。 
2.4 与 先进 的 模型 比较 


在 这 部 分 ， 本 文 将 从 定性 与 定量 两 种 角度 将 本 文 提出 的 


SRNet 与 近年 来 最 先进 的 9 种 模型 0 


420 进 行 比较 。 为 了 公平 


起 见 ， 使 用 作者 所 给 出 的 源 代码 进行 实验 结果 复 现 (如 (3))， 


或 直接 使 用 作者 给 出 的 该 模型 的 显著 目标 预测 结果 。 


2.4.1 定性 分 析 
1) 如 图 5 所 示 , 本 文 从 9 种 对 上 
进 模型 同 SR-Net 进行 了 定性 分 析 。 


模型 中 随机 选取 6 种 先 


体 的 : 如 图 5 的 第 一 行 
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像 所 示 。 首 先 ， 在 对 人 手 及 所 持 物体 检测 时 ， 众 多 检测 方 目标 ， 且 检测 结果 中 或 多 或 少 的 包含 了 噪声 。 相 反 的 ， 本 文 
法 ， 如 CoNetl9，BiANetL8，CMWNet0l9，D3Net20 未 能 获 ”所 提出 的 模型 能 够 精准 获取 多 目标 中 的 显著 目标 ， 并 且 有 效 
取 到 准确 的 显著 目标 ， 并 且 检 测 结果 中 含有 大 量 的 噪声 。 再 减少 了 噪声 干扰 ， 图 5 中 第 四 行 图 像 亦 是 如 此 。 
者 ，cmSalGAN04 虽 然 检 测 到 显著 目标 的 大 致 轮廓 ， 但 缺少 3) 本 文 提出 的 模型 能 够 在 复杂 背景 下 , 获取 到 显著 目标 。 
了 很 多 边缘 细节 。 相 反 的 ， 本 文 的 模型 能 够 准确 地 将 人 手 及 ”参见 图 5 第 6 行 图 像 ， 由 于 汽车 后 部 复杂 的 背景 的 干扰 ， 

所 持 物体 检测 出 来 ， 并 且 显 著 目 标的 边缘 更 加 清晰 ， 第 二 行 些 检测 模型 未 能 将 整个 汽车 的 完整 轮廓 进行 检测 出 来 ， 如 
像 同 样 证 明了 这 一 点 。 CoNetl16]，BiANetl131。 再 者 , 虽然 CMWNett9，D3Net20 获 取 到 
2) 本 文 提 出 的 SRNet 能 够 在 多 目标 情景 中 ， 精 准 检测 了 汽车 的 大 致 轮廓 ， 但 附带 了 众多 的 噪声 ， 使 得 整个 检测 结果 
到 显著 目标 。 参 见 图 5 第 三 行 图 像 ， 由 于 图 像 中 包含 了 多 目 看 上 去 较为 杂乱 。 相 反 的 ， 如 图 所 示 ， 提 出 的 模型 能 够 完整 将 
标 , 受 多 目标 的 干扰 ,一 些 检 测 方法 , 如 BBS-Netl5, CoNetLl9， ”汽车 检测 出 来 ， 并 且 有 效 地 减少 了 背景 噪声 带 来 的 干扰 ， 这 充 
BiANetLL8，CMWNetUl9]，D3Net20 未 能 准确 检测 到 主要 显著 证 明了 提出 的 模型 同样 可 以 有 效应 对 复杂 背景 问题 。 
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图 5 与 其 他 先进 模型 视觉 效果 对 比 
Fig.5 Visual effect comparison with other advanced models 

2.4.2 定量 分 析 (TMM21)043 相 比 ， 本 文 提 出 的 模型 在 四 个 数据 集 上 均 大 幅度 

为 了 更 加 直观 的 展现 本 文 提 出 的 横 型 的 有 效 性 ， 如 表 1 ” 领先 , 例如 , 在 SP 数据 集 上 ，SRNet 相 较 于 cmSalGAN 在 
及 图 6 所 示 ， 从 定量 角度 将 模型 与 9 种 最 先进 方法 在 5 种 评 ”及 雄 指 标 上 分 别提 高 了 2.6% 和 3.9%， 在 MAE 指标 上 降低 了 
价 指标 及 PR 曲线 上 进行 比较 ， 上 基体 的 : 17%， 这 充分 证 明了 提出 的 模型 相 较 于 最 新 的 cmSalGANI41 模 

如 图 6 所 示 ， 本 文 提出 的 模型 在 三 个 公共 数据 集 (SIP， 型 ,实验 效果 更 加 出 色 。 最 后 ， 与 9 种 对 比方 法 中 的 相对 最 优 方 
NJUD,NLPR) 上 均 取得 了 最 高 的 精准 -召回 率 ， 仅 在 LFSD 数 ”法 , BBS-Net, 相 比 , 本 文 提 出 的 SRNet 仍然 可 以 取得 杰出 的 实 
据 集 上 取得 次 优 的 结果 。 再 者 ， 1 ， 本 文 在 5 个 评 ” 验 效果 ， 有 具体 的 ，SRNet 在 SIP 及 NLPR 数据 集 上 的 5 种 评价 
价 指标 上 将 模型 与 对 比方 法 进行 定量 评估 ， 可 以 直观 得 到 ， 指标 均 优 于 BBS-Net， 仅 在 NJUD 及 LFSD 数据 集 上 的 一 些 评 
在 SP 及 NLPR 数据 集 上 ， 本 文 模型 在 5 种 评价 指标 上 均 优 ” 价 ( 如 MAE) 指 标 略 低 于 BBS-Net， 这 充分 证 明 ， 本 文 提 出 的 模 
于 近年 来 最 先进 的 方法 ， 与 时 间 维 度 最 近 的 cmSalGAN ” 型 与 相对 最 优 方法 相 比 ， 仍 然 具 有 明显 优势 。 
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表 1 与 其 他 先进 模型 定性 结果 比较 
Tab. 1 Comparison of qualitative results with other advanced models 
SIP NLPR NJUD LFSD 
Fuax Fasa FF En MAE Fuax Fa FF En MAE Fuax Fa FF En MAE Fax Fa FF E» MAE 
SRNet(Ours) 0.905 0.875 0.834 0.918 0.053 0.927 0.885 0.881 0.957 0.023 0.932 0.901 0.885 0.923 0.035 0.882 0.859 0.812 0.8090 0.074 


Methods 


CmSalGAN 0.890 0.849 0.795 0.902 0.064 0.923 0.863 0.855 0.947 0.027 0.910 0.874 0.846 0.907 0.046 0.851 0.831 0.761 0.870 0.097 
BBS-Net 0.902 0.872 0.830 0.916 0.055 0.927 0.882 0.879 0.952 0.023 0.931 0.902 0.884 0.924 0.035 0.879 0.858 0.814 0.889 0.072 
CoNet 0.883 0.842 0.803 0.909 0.063 0.898 0.848 0.842 0.934 0.031 0.902 0.872 0.849 0.912 0.046 0.877 0.848 0.815 0.896 0.071 
DANetvssgl6 0.901 0.864 0.829 0.916 0.054 0.913 0.871 0.858 0.949 0.028 0.905 0.877 0.853 0.916 0.046 0.871 0.827 0.789 0.827 0.082 
DANetvsgl9 0.892 0.855 0.822 0.914 0.054 0.921 0.875 0.868 0.952 0.027 0.910 0.871 0.857 0.908 0.045 0.871 0.831 0.795 0.874 0.079 
BiANet 0.835 0.800 0.739 0.873 0.083 0.893 0.861 0.830 0.940 0.032 0.884 0.849 0.820 0.906 0.055 0.775 0.740 0.675 0.803 0.123 
CMWNet 0.890 0.851 0.811 0.907 0.062 0.913 0.859 0.856 0.940 0.029 0.913 0.880 0.857 0.911 0.046 0.900 0.871 0.834 0.891 0.066 
D3Net 0.881 0.835 0.799 0.902 0.063 0.907 0.862 0.849 0.944 0.030 0.909 0.865 0.854 0.913 0.047 0.840 0.801 0.760 0.853 0.095 
CPFP) 0.870 0.819 0.788 0.899 0.064 0.888 0.823 0.813 0.924 0.036 0.890 0.837 0.828 0.896 0.053 0.850 0.813 0.772 0.867 0.088 
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图 6 PR 曲线 

Fig.6 PR curve 
2.5 消融 实验 2) 如 1.3 所 述 , 首先 获取 到 初级 全 局 特征 , 因 初 级 全 局 特 
在 这 一 部 分 ， 将 进行 消融 实验 以 验证 在 SR-Net 中 设计 ， 征 会 包含 大 量 的 关于 显著 目标 的 主要 特征 ， 因 此 当 使 用 其 作 


人 

& 

的 顺序 精炼 网 络 、PFW 模块 以 及 损失 函数 。 具 体 的 : 指导 特征 时 ， 可 以 精炼 和 加 强 被 指导 特征 中 所 包含 的 重要 

1) 为 了 验证 本 文 提出 的 顺序 精炼 网 络 的 有 效 性 ， 本 文 将 ” 特征 , 并 去 除 见 余 信息 , 因此 本 文 提 出 PFW 模块 ， 以 去 除 元 
了 


Ne 


图 2 中 的 三 个 融合 节点 (Poa, Pow, Result ) 分 别 进行 可 视 化 ， 余 信息 ,并 获取 初级 全 局 特征 的 权重 矩阵 , 以 便于 指导 融合 。 
可 视 化 结果 如 图 7 所 示 ， 可 以 直观 得 到 ， 随 着 顺序 精炼 网 络 ”为 本 文 提出 的 PFW 模块 的 有 效 性 ， 将 图 2 中 的 PFW 
的 进行 ， 在 初级 全 局 特征 的 指导 下 ， 图 像 中 的 显著 目标 逐渐 ”去 除 (对 比 模型 标注 为 SRNet)， 初 级 全 局 特征 仅 通 过 将 各 层 
完整 。 并 过 滤 了 大 部 分 背景 噪声 。 再 者 ， 为 了 更 加 充分 的 证 ”次 特征 进行 对 应 元 素 相 乘 而 获得 ， 后 续 并 未 通过 PFW 模块 
明 本 文 提 出 的 顺序 精炼 网 络 的 有 效 性 ， 同 样 将 三 个 融合 节点 去除 初级 全 局 特征 包含 的 元 余 信 息 ， 获 取 权 重 和 矩阵， 有 具体 的 
的 输出 分 别 进行 定量 分 析 ， 如 表 2 所 示 ， 在 三 个 数据 集 上 对 ”消融 实验 结果 如 表 3 所 示 。 从 表 中 可 以 获得 ,在 未 采用 的 PFW 
三 个 融合 节点 进行 5 种 模型 评价 指标 测量 ， 实 验 结果 如 表 2 模块 的 对 比 模型 中 ， 其 在 三 个 数据 集 上 的 实验 结果 均 低 于 
所 示 ， 可 以 清晰 获得 ， 随 着 顺序 精炼 网 络 的 进行 ， 融 合 节点 SR-Net， 且 平均 降低 了 1~2 个 百分点 ， 这 充分 证 明了 本 文 在 
所 获得 的 显著 目标 检测 结果 质量 在 不 断 提 高 。 因 此 ， 通 过 视 ”SR-Net 中 所 提出 的 用 来 获取 初级 全 局 特征 权重 的 PFW 模块 
觉 与 定量 两 种 角度 ， 都 完美 的 验证 了 本 文 提 出 的 顺序 精炼 网 ”的 有 效 性 。 

3) 如 1.5 所 述 , 为 了 更 好 地 训练 整个 网 络 , 设计 了 一 种 新 
的 损失 函数 ， 并 给 予 不 同 融合 节点 以 不 同 的 权重 ， 进 而 强调 
不 同 融 合 节 点 对 最 终 损 失 函 数 的 影响 程度 不 同 。 为 了 验证 本 
文 所 提出 的 损失 函数 的 有 效 性 ， 将 所 设计 的 损失 函数 进行 改 
变 ， 即 本 文 仅 计算 最 终 显 著 目 标 预测 结果 的 损失 函数 ， 并 给 
了 予 权重 为 1， 而 并 未 计算 过 程 中 的 融合 节点 的 损失 函数 ， 具 
体 的 计算 公式 可 以 表示 为 ss =gus。 消 融 实验 结果 (对 比 模型 
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标注 为 SRNet2) 如 表 3 所 示 。 可 以 获得 ， 在 本 文 设计 的 损失 
as 函数 的 优化 下 , 本文 的 实验 结果 相 较 于 SRNet2, 在 三 个 数据 
RGB Depth GT Result Fa Fn 集 上 均 处 于 全 指标 领先 ， 领 先 程度 也 均 处 于 1~2 个 百分点 ， 
图 7 消融 实验 视觉 对 比 这 充分 证 明了 ， 在 本 文 设计 的 新 的 损失 函数 的 优化 下 ， 可 以 
Fig.7 Visual contrast of Ablation Experiment 获得 更 加 精准 的 显著 目标 预测 结果 。 
表 2 消融 结果 
Tab.2 Ablation result 1 
SIP NLPR NJUD 
Layer 
FwAx ~ Faga Fp Em MAE Fuax ~ Faa Fp Em MAE Fyax ~ Fa Fp Em MAE 
Result 0.905 0.875 0.834 0.918 0.053 0.927 0.885 0.881 0.957 0.023 0.932 0.901 0.885 0.923 0.035 
Predict> 0.898 0.870 0.817 0.914 0.059 0.920 0.879 0.863 0.954 0.026 0.927 0.895 0.870 0.921 0.039 
Predicti 0.893 0.856 0.801 0.912 0.062 0.915 0.858 0.848 0.945 0.029 0.922 0.884 0.860 0.914 0.042 
表 3 ”消融 结果 2 
Tab.3 Ablation result 2 
SIP NLPR NJUD 
Category 
FMAx Fada Fp Em MAE Fxuax Fada Fp Em MAE Fxuax Fada Fp Em MAE 


SRNet 0.905 0.875 0.834 0.918 0.053 0.927 0.885 0.881 0.957 0.023 0.932 0.901 0.885 0.923 0.035 
SRNet 0.896 0.860 0.819 0.914 0.057 0.919 0.869 0.868 0.947 0.026 0.928 0.894 0.880 0.914 0.038 
SRNetz 0.903 0.873 0.822 0.911 0.059 0.912 0.868 0.863 0.945 0.027 0.928 0.898 0.879 0.919 0.038 


2.6 ”失败 案例 仿 测 出 来 ， 并 未 识别 到 后 续 玩具 。 第 二 行 图像 同 样 证 明了 本 
为 了 促进 未 来 研究 工作 者 对 这 一 领域 的 研究 ， 在 这 一 部 文 的 这 一 观点 。 

分 ， 将 对 实验 过 程 中 的 一 些 失 败 案例 进行 介绍 ， 并 给 出 对 该 2) 与 显著 目标 颜色 对 比 度 相 近 的 背景 的 和 干扰。 如 图 8 第 

失败 案例 的 一 些 思路 ， 如 图 8 所 示 ， 有 具体 的 : 三 行 图 像 ， 由 于 RGB 图 像 中 的 雕塑 与 背景 玩具 的 颜色 十 分 
1) 深 度 图 误导 。 如 图 8 第 一 行 图 像 中 ， 因 深度 图 像 主要 相近 , 即使 深度 图 只 强调 了 雕塑 , 但 因 RGB 图 像 中 颜色 对 比 

突出 了 第 一 个 玩具 ， 而 并 未 强调 后 续 玩 具 ， 促 使 本 文 模型 及  ” 度 相近 的 背景 的 干扰 ，Ours,cmSalGANI41,CoNetl91 在 检测 过 

CoNetl9 在 显著 目标 预测 时 ， 只 将 第 一 个 玩具 作为 预测 结果  ” 程 中 ， 都 包含 了 来 自 背景 的 噪声 。 
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图 8 失败 案例 


Fig.8 Failure cases 


3 ”结束 语 


本 文 提出 一 种 新 型 的 用 于 RGB-D 显著 目标 检测 的 网 络 
框架 (SR-Net)。 为 有 效 整 合 多 模 态 特征 的 互补 性 , 将 深度 特征 
提取 作为 独立 分 支 , 并 采用 深度 特征 模块 CBAM 进行 深度 特 
征 增强 ， 整 合 增强 后 的 深度 特征 与 RGB 特征 的 互补 信息 。 
其 次 为 了 去 除 特征 见 余 ， 减 少 背景 噪声 对 预测 结果 的 干扰 ， 
在 上 采样 网 络 中 设计 了 一 种 顺序 精炼 网 络 ， 即 通过 整合 多 层 
次 、 多 尺度 特征 的 互补 性 , 获取 初级 全 局 特征 ; 采用 通过 PFW 
模块 获取 到 的 初级 全 局 特征 的 权重 矩阵 进行 各 层次 特征 的 精 
炼 ， 最 后 提出 一 种 新 的 损失 函数 ， 在 四 个 公共 数据 集 上 的 实 
验 结果 表明 该 模型 在 不 同 的 模型 评价 指标 上 均 优 于 近年 来 9 
种 先进 方法 。 
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